Musical Composition Style Transfer via Disentangled Timbre Representations
ShuKumata.icon
The problem the authors try to solve:
1枚まとめ
https://gyazo.com/23bb7180cf87e0feba20c44c868e630f
1. どんなもの? 問題意識は?
例えば、あるジャンルの曲を別ジャンルの曲に変えるタスクは、それぞれのジャンルの特徴を十分知った上で行わなければならず、人間でも数年の訓練が必要なほど難しいタスクである。機械だと、入力の曲のpitchをキープするだけでなく、それぞれの楽器がどの音程幅を演奏できるのかや楽器間の関係性を把握しておく必要がある。さらに、必要な対となるデータは十分に存在しない。
入力をAudio、出力を楽譜(どの音がどの楽器によって演奏されているか)とするネットワークを構築し、音楽の音色(timbre)と音の高さ(pitch)の潜在変数をdisentangleできるように敵対的に学習する。
二つのモデルを提案
AudioとMIDIのpairデータがあれば、学習できる
Audioがあれば、どんな音楽でもrearrangeできる
モデルとしてはAudioを入力として、CQTで画像的に変換し、AutoEncoder的に
潜在変数からピアノロールを出力するDecoderも学習させる
skip-connectionを用いてtimbreの潜在変数だけ抽出するモデルと、timbreとpitchの潜在変数を2つのEncoderと敵対的な学習でdisentangleに抽出するモデルの2通りを実験
音色変換を行う際は、音色の潜在変数を別楽器のものに置き換えてピアノロールを出力させる。
器楽編成を変えることをやっている
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
入出力のデータ表現
入力はどんな長さのAudioでも可能
AudioをCQT(time-frequency representation)に変換して、full-convolutionalなencoder, decoderで扱う。 STFTよりもlogarithmic frequency scaleを利用している点でCQTが良い 低周波数域で解像度が良いため、重要な周波数域を検出するのに役立つ
出力は、ピアノロール形式
モデル
DuoED Model
Encoder-Decoderのバイナリクロスエントロピーをそれぞれ最小化する
Encoder
入力画像$ X_{cqt}をtimbreの潜在表現$ Z_tにencodeする$ E_t
入力画像$ X_{cqt}をpitchの潜在表現$ Z_pにencodeする$ E_p
潜在表現は画像のstyle transferをする際のようにvectorではなく、時間軸を示すためにmatrix
Decoder
timbreの潜在表現$ Z_tから実際のtimbre$ X_tを予測する$ D_t(分類器)
pitchの潜在表現$ Z_pから実際のpitch$ X_pを予測する$ D_p
2つの潜在表現$ Z_t, Z_pから実際のピアノロール$ X_{roll}を予測する$ D_{roll}
Adversarial training
$ Z_tに$ D_pを用いて実際のpitch$ X_pの予測と$ Z_pに$ D_tを用いて実際のtimbre$ X_tの予測を行い、その出力が全て0になるように学習させる
$ Z_tにpitchの情報が、$ Z_pにtimbreの情報が含まれないようにするため
timbreとpitchにのみこの作業を行う。
UnetED Model
実際にスタイル変換するやり方
e.g. あるスタイルの音楽Aを別のスタイルの音楽Bのスタイルに変換する
Aからpitchの潜在表現を、Bからtimbreの潜在表現を得て、これらを用いてpiano rollを出力する
4. どうやって有効だと検証した?
1秒ごとにその楽器が含まれているかを判定するタスク(Instrument Activity Detection)のAUC score
音色の潜在変数が適切に抽出されていることを検出するため??
Music Rearrangementの評価
音色の変換を行ったあとの曲をsubjectに聞いてもらって、リズム・ハーモニー・全体的な観点から4段階へ評価してもらい、UnetEDがもっともいい成績だった。
5. 議論はある?
6. 次に読むべき論文は?
Audioから音色と音程をdisentangleして学習した論文
画像のstyle変換の論文。subjectによる評価の際のベースラインにしている。
Disentangle for style transfer
Image
Image style transferの最初の論文
Music
7. メモ
リンク
著者の実装